智能论文笔记

DDGHM: Dual Dynamic Graph with Hybrid Metric Training for Cross-Domain Sequential Recommendation

Xiaolin Zheng , Jiajie Su , Weiming Liu , Chaochao Chen

分类：人工智能

2022-09-21

顺序推荐（SR）通过对用户在项目之间的过境方式进行建模来表征用户行为不断发展的模式。但是，简短的交互序列限制了现有SR的性能。为了解决这个问题，我们专注于本文中的跨域顺序推荐（CDSR），该建议旨在利用其他域中的信息来提高单个域的顺序建议性能。解决CDSR具有挑战性。一方面，如何保留单个领域的偏好以及整合跨域影响仍然是一个基本问题。另一方面，由于合并序列的长度有限，因此仅利用来自其他域的知识来完全解决数据稀疏问题。为了应对挑战，我们提出了DDGHM，这是CDSR问题的新型框架，其中包括两个主要模块，即双动态图形建模和混合度量训练。前者通过动态构造两级图，即局部图和全局图，捕获内域和域间顺序跃迁，并将它们与融合的细心门控机制结合在一起。后者通过采用混合度量学习来增强用户和项目表示形式，包括实现保持一致性和对比度度量的协作指标，以确保均匀性，以进一步减轻数据稀少性问题并提高预测准确性。我们在两个基准数据集上进行实验，结果证明了DDHMG的有效性。

translated by 谷歌翻译

Cross-Network Social User Embedding with Hybrid Differential Privacy Guarantees

Jiaqian Ren , Lei Jiang , Hao Peng , Lingjuan Lyu , Zhiwei Liu , Chaochao Chen , Jia Wu , Xu Bai , Philip S. Yu

分类：人工智能

2022-09-04

整合多个在线社交网络（OSN）对许多下游社交挖掘任务（例如用户偏好建模，建议和链接预测）具有重要意义。但是，不幸的是，伴随着越来越多的隐私问题，泄漏敏感用户信息。如何完全利用来自不同在线社交网络的数据，同时保存用户隐私仍然无法解决。为此，我们提出了一个跨网络的社交用户嵌入框架，即DP-Crosue，以一种隐私性的方式学习用户的全面表示。我们共同考虑具有不同隐私保证的部分调整社交网络的信息。特别是，对于每个异质社交网络，我们首先引入一个混合差异隐私概念，以捕获异构数据类型的隐私期望的变化。接下来，为了找到跨社交网络的用户链接，我们进行了无监督的基于用户嵌入的对齐方式，其中通过异质网络嵌入技术实现了用户嵌入。为了进一步增强用户嵌入，一种新颖的跨网络GCN嵌入模型旨在通过那些对齐用户跨网络传输知识。在三个现实世界数据集上进行的广泛实验表明，我们的方法对用户兴趣预测任务以及捍卫用户属性推理攻击的嵌入进行了重大改进。

translated by 谷歌翻译

Scalable and Sparsity-Aware Privacy-Preserving K-means Clustering with Application to Fraud Detection

Yingting Liu , Chaochao Chen , Jamie Cui , Li Wang , Lei Wang

分类：机器学习

2022-08-12

K均值是实践中使用最广泛的聚类模型之一。由于数据隔离的问题和对高模型性能的要求，如何共同建立实用和安全的K均值为多方成为行业中许多应用程序的重要主题。现有的工作主要是两种类型。第一种类型具有效率优势，但是信息泄漏会增加潜在的隐私风险。第二种类型是可证明的，但对于大规模数据稀疏方案而言，效率低下，甚至无助。在本文中，我们提出了一个新的框架，用于具有三个特征的有效稀疏感k均值。首先，我们的框架分为独立于数据的离线阶段和更快的在线阶段，并且离线阶段允许预先计算几乎所有的加密操作。其次，我们利用在线和离线阶段中的矢量化技术。第三，我们采用稀疏的矩阵乘法，以进一步提高效率。我们对三个合成数据集进行了全面的实验，并将模型部署在现实世界中的欺诈检测任务中。我们的实验结果表明，与最先进的解决方案相比，我们的模型在运行时间和沟通规模方面都能达到竞争性能，尤其是在稀疏数据集上。

translated by 谷歌翻译

Adaptive Client Sampling in Federated Learning via Online Learning with Bandit Feedback

Boxin Zhao , Ziqi Liu , Chaochao Chen , Mladen Kolar , Zhiqiang Zhang , Jun Zhou

分类：机器学习

2021-12-28

在联合学习（FL）问题中，客户采样在训练算法的收敛速度中起着关键作用。然而，虽然是FL中的一个重要问题，但客户采样缺乏研究。在本文中，我们提出了在线学习，使用强盗反馈框架来了解FL中的客户采样问题。通过调整在线随机镜血清序列算法，以最小化梯度估计的方差，我们提出了一种新的自适应客户端采样算法。此外，我们使用在线集合方法和加倍技巧来自动选择算法中的调整参数。从理论上讲，我们将动态遗憾与比较器相结合，作为理论上最佳采样序列;我们还包括在我们的上限中的该序列的总变化，这是对问题的内在难度的自然度量。据我们所知，这些理论贡献对现有文献进行了新颖。此外，通过实施合成和真实数据实验，我们展示了我们所提出的算法在广泛使用的统一采样中的优势以及以前研究的其他在线学习的采样策略的实证证据。我们还检查其对调谐参数的选择的鲁棒性。最后，我们讨论其可能的延伸，而无需更换和个性化的流动。虽然原始目标是解决客户的采样问题，但这项工作在随机梯度下降和随机坐标序列方法上具有更大的应用。

translated by 谷歌翻译

Generalization Bounds for Stochastic Gradient Langevin Dynamics: A Unified View via Information Leakage Analysis

Bingzhe Wu , Zhicong Liang , Yatao Bian , ChaoChao Chen , Junzhou Huang , Yuan Yao

分类：机器学习 | 人工智能

2021-12-14

最近，使用随机梯度Langevin Dynamics（SGLD）的非凸实验性风险最小化范例的泛化界限已经过度研究。已经提出了几种理论框架来研究来自不同观点的这个问题，例如信息理论和稳定性。在本文中，我们从隐私泄漏分析中提出了一个统一的视图，以调查SGLD的泛化范围，以及以简洁的方式重新获得以前结果的理论框架。除了理论上的发现之外，我们进行各种数值研究，以统一地评估SGLD的信息泄漏问题。此外，我们的理论和经验结果提供了研究SGLD成员隐私的事先作品的解释。

translated by 谷歌翻译

Text2Struct: A Machine Learning Pipeline for Mining Structured Data from Text

Chaochao Zhou , Bo Yang

分类：机器学习

2022-12-18

Many analysis and prediction tasks require the extraction of structured data from unstructured texts. To solve it, this paper presents an end-to-end machine learning pipeline, Text2Struct, including a text annotation scheme, training data processing, and machine learning implementation. We formulated the mining problems as the extraction of metrics and units associated with numerals in the text. Text2Struct was evaluated on an annotated text dataset collected from abstracts of medical publications regarding thrombectomy. In terms of prediction performance, a dice coefficient of 0.82 was achieved on the test dataset. By random sampling, most predicted relations between numerals and entities were well matched to the ground-truth annotations. These results showed that the Text2Struct is viable for the mining of structured data from text without special templates or patterns. It is anticipated to further improve the pipeline by expanding the dataset and investigating other machine learning models. A code demonstration can be found at: https://github.com/zcc861007/CourseProject

translated by 谷歌翻译

MARS: A Motif-based Autoregressive Model for Retrosynthesis Prediction

Jiahan Liu , Chaochao Yan , Yang Yu , Chan Lu , Junzhou Huang , Le Ou-Yang , Peilin Zhao

分类：机器学习

2022-09-27

反转合是药物发现的主要任务。通过许多现有方法，它被称为生成图的问题。具体而言，这些方法首先识别反应中心，并相应地打破靶分子以生成合成子。反应物是通过顺序添加到合成图或直接添加正确的离开组来生成反应物。但是，两种策略都遭受了添加原子以来会导致长期的预测顺序，从而增加了产生难度，同时添加离开组只能考虑训练集中的序列，从而导致概括不佳。在本文中，我们提出了一个新颖的端到端图生成模型，用于逆转录合成预测，该模型顺序识别反应中心，生成合成子，并将基序添加到合成子中以生成反应物。由于化学有意义的基序比原子大，比离开组还小，因此与添加原子相比，与添加离开组相比，我们的方法的预测复杂性较低。基准数据集上的实验表明，所提出的模型显着胜过先前的最新算法。

translated by 谷歌翻译

Is Vertical Logistic Regression Privacy-Preserving? A Comprehensive Privacy Analysis and Beyond

Yuzheng Hu , Tianle Cai , Jinyong Shan , Shange Tang , Chaochao Cai , Ethan Song , Bo Li , Dawn Song

分类：机器学习

2022-07-19

我们考虑垂直逻辑回归（VLR）接受了迷你批次梯度下降训练，这种环境吸引了行业日益增长的兴趣，并被证明在包括金融和医学研究在内的广泛应用中很有用。我们在一系列开源联合学习框架中提供了对VLR的全面和严格的隐私分析，其中协议之间可能会有所不同，但是获得了获得本地梯度的过程。我们首先考虑了诚实而有趣的威胁模型，其中忽略了协议的详细实施，并且仅假定共享过程，我们将其作为甲骨文提取。我们发现，即使在这种一般环境下，在适当的批处理大小约束下，仍然可以从另一方恢复单维功能和标签，从而证明了遵循相同理念的所有框架的潜在脆弱性。然后，我们研究基于同态加密（HE）的协议的流行实例。我们提出了一种主动攻击，该攻击通过生成和压缩辅助密文来显着削弱对先前分析中批处理大小的约束。为了解决基于HE的协议中的隐私泄漏，我们基于差异隐私（DP）开发了一种简单的对策，并为更新的算法提供实用程序和隐私保证。最后，我们从经验上验证了我们对基准数据集的攻击和防御的有效性。总之，我们的发现表明，仅依靠他的所有垂直联合学习框架可能包含严重的隐私风险，而DP已经证明了其在水平联合学习中的力量，也可以在垂直环境中起着至关重要的作用，尤其是当耦合时使用HE或安全的多方计算（MPC）技术。

translated by 谷歌翻译

RetroComposer: Discovering Novel Reactions by Composing Templates for Retrosynthesis Prediction

Chaochao Yan , Peilin Zhao , Chan Lu , Yang Yu , Junzhou Huang

分类：机器学习

2021-12-20

丙酸的主要靶标是递归地将所需分子分解成可用的构件块。现有的基于模板的逆转性方法遵循模板选择刻板印象并遭受有限训练模板，这可以防止它们发现新的反应。为了克服限制，我们提出了一种创新的retrosynesp预测框架，可以撰写超出训练模板的新型模板。据我们所知，这是第一种可以找到用于逆转金属预测的新型模板的方法。此外，我们提出了一种有效的反应物候选候选模型，可以捕获原子级变换信息，并有助于我们的方法优于现有方法，通过大边距。实验结果表明，我们的方法可以在USPTO-50K数据集中生产328个测试反应的新型模板，包括训练模板未涵盖的21个测试反应。

translated by 谷歌翻译

Action-Sufficient State Representation Learning for Control with Structural Constraints

Biwei Huang , Chaochao Lu , Liu Leqi , José Miguel Hernández-Lobato , Clark Glymour , Bernhard Schölkopf , Kun Zhang

分类：机器学习 | 人工智能

2021-10-12

在现实世界中，感知的信号通常是高维且嘈杂的，并且在下游决策任务所需的必要和充分信息中找到和使用其表示形式，将有助于提高任务中的计算效率和概括能力。在本文中，我们专注于部分可观察到的环境，并建议学习一组最小的状态表示，以捕获足够的决策信息以进行决策，称为\ textIt {动作充足的状态表示}（ASRS）。我们为系统中变量之间的结构关系构建了生成环境模型，并提出了一种基于结构约束的ASRS来表征ASR的原则方法，以及在政策学习中最大程度地提高累积奖励的目标。然后，我们开发一个结构化的顺序变异自动编码器来估计环境模型并提取ASRS。我们关于载载和Vizdoom的经验结果证明了学习和使用ASRS进行政策学习的明显优势。此外，估计的环境模型和ASR允许从紧凑的潜在空间中想象的结果中学习行为，以提高样品效率。

translated by 谷歌翻译